长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
机器人技术中的一个长期目标是建立可以从使用其板载传感器获得的感知中执行各种日常任务的机器人,并且仅通过自然语言指定。尽管最近通过利用从像素的端到端学习来实现了在语言驱动的机器人技术中的实质性进步,但由于设置的基本差异,没有明确且妥善理解的过程来做出各种设计选择。在本文中,我们对从离线自由模仿数据集中学习语言条件政策的最关键挑战进行了广泛的研究。我们进一步确定了改善性能的架构和算法技术,例如机器人控制学习的层次分解,多模式变压器编码器,离散的潜在计划以及与视频和语言表示一致的自我监视的对比损失。通过将调查的结果与改进的模型组件相结合,我们能够提出一种新颖的方法,该方法在具有挑战性的语言条件长的长摩托器机器人操纵Calvin基准上大大优于最新技术。我们已经开源的实施方式,以促进未来的研究,以学习自然语言连续指定的许多复杂的操纵技能。 http://hulc.cs.uni-freiburg.de可用代码库和训练有素的模型
translated by 谷歌翻译
与人类在环境中共存的通用机器人必须学会将人类语言与其在一系列日常任务中有用的看法和行动联系起来。此外,他们需要获取各种曲目的一般专用技能,允许通过遵循无约束语言指示来组成长地平任务。在本文中,我们呈现了凯文(从语言和愿景撰写的行动),是一个露天模拟基准,用于学习Long-Horizo​​ n语言条件的任务。我们的目的是使可以开发能够通过船上传感器解决许多机器人操纵任务的代理商,并且仅通过人类语言指定。 Calvin任务在序列长度,动作空间和语言方面更复杂,而不是现有的视觉和语言任务数据集,并支持灵活的传感器套件规范。我们评估零拍摄的代理商以新颖的语言指示以及新的环境和对象。我们表明,基于多语境模仿学习的基线模型在凯文中表现不佳,表明有很大的空间,用于开发创新代理,了解学习将人类语言与这款基准相关的世界模型。
translated by 谷歌翻译